Doodle eines künstlichen neuronalen Netzwerks

Forschung

Unsere Forschungsinteressen und die Publikationen

Unser Lehrstuhl beschäftigt sich mit den mathematischen Grundlagen des maschinellen Lernens und der Signalverarbeitung. Wir entwickeln mathematische Theorie für existierende Methoden in diesen Bereichen und entwickeln neue bzw. verfeinerte Methoden. Unter mathematischer Theorie verstehen wir dabei vor allem Garantien bzw. Bedingungen für den Erfolg dieser Methoden.

Schwerpunkte unsere Forschung betreffen das Konvergenzverhalten von Lernalgorithmen, insbesondere (stochastische) Gradientenabstiegsmethoden für Deep Learning und Generalisierungsaussagen für gelernte neuronale Netze. Außerdem beschäftigen wir uns mit Compressive Sensing, d.h. Signalrekonstruktion anhand einer minimalen Anzahl von Messungen.

Unsere mathematische Forschung benutzt unter anderem Werkzeuge aus der (hochdimensionalen) Wahrscheinlichkeitstheorie und der Theorie der Zufallsmatrizen, konvexe und nichtkonvexe Optimierung, sowie verschiedene Teilgebiete der Analysis, etwa der harmonischen Analysis.

Inhalt wechseln

Theorie für Trainingsalgorithmen

Das Lernen neuronaler Netze und anderer maschineller Lernmodelle aus Trainingsdaten führt in der Regel zu dem Problem, einen (approximativen) Minimierer einer nicht-konvexen Verlustfunktion der Modellparameter zu berechnen. Für die anspruchsvolle Aufgabe der Minimierung einer solchen Funktion einer großen Anzahl von Parametern werden üblicherweise Varianten des (stochastischen) Gradientenabstiegs (SGD) verwendet. Trotz bemerkenswerter Leistungsfähigkeit in der Praxis sind die Konvergenzeigenschaften noch nicht sehr gut verstanden. Wir wollen die entsprechende Konvergenztheorie weiterentwickeln.

Ein Schwerpunkt unserer Forschung ist die Untersuchung der Konvergenz für vereinfachte Netzwerkmodelle, insbesondere lineare neuronale Netze, bei denen die Aktivierungsfunktion die Identität ist. Obwohl solche Netze nur lineare Funktionen modellieren, die für die meisten Anwendungen nicht ausreichend sind, ist die Untersuchung ihres Trainings aufgrund der Nichtkonvexität dennoch nichttrivial. Wir konnten beispielsweise die Konvergenz zu globalen Minimizern für vollständig verbundene lineare neuronale Netze sowie Konvergenzeigenschaften für konvolutionelle lineare neuronale Netze nachweisen.

In modernen Deep-Learning-Szenarien ist es üblich, dass mehr Trainingsdaten als Netzwerkparameter vorhanden sind, was zu Verlustfunktionen mit vielen globalen Minimizern führt – die allen Netzwerken entsprechen, die die Daten interpolieren. In diesem Szenario hat der verwendete Optimierungsalgorithmus (sowie seine Parameter wie die Initialisierung) einen erheblichen Einfluss auf die berechnete Lösung, was als impliziter Bias oder implizite Regularisierung bezeichnet wird. Überraschenderweise werden oft Lösungen berechnet, die sich gut auf unbekannte Daten verallgemeinern lassen. Das Verständnis dersimpliziten Bias ist daher sowohl für die Theorie als auch für die Praxis von entscheidender Bedeutung. Wir untersuchen dieses Phänomen für mehrere vereinfachte Modelle, darunter lineare (diagonale) Netzwerke und ReLU-Netzwerke.

Compressive Sensing befasst sich mit Signal- und Bildrekonstruktionsproblemen, bei denen die Menge der verfügbaren Informationen kleiner ist als die Signallänge. Mathematisch führt dies zu einem unterbestimmten Gleichungssystem, das in der Regel unendlich viele Lösungen hat. Um Rekonstruktion möglich zu machen, müssen zusätzliche Annahmen über das wiederherzustellende Signal bzw. den zu rekonstruierenden Vektor getroffen werden, meist dass das Signal durch ein dünnbesetztes (sparses) Signal mit nur wenigen Nicht-Null-Koeffizienten (in einer geeigneten Basis) gut approximiert werden kann. Unter geeigneten Annahmen ist dann eine akkurate Rekonstruktion anhand weniger Messungen mittels effizienter Algorithmen möglich. Zu den verwendeten Algorithmen gehören konvexe Optimierungsansätze (l1-Minimierung), Greedy-Algorithmen und andere iterative Verfahren. Bemerkenswert ist, dass beweisbar optimale Messverfahren durch Zufallsmatrizen modelliert werden. Tatsächlich ist die Rekonstruktion eines s-sparsen Signals der Länge n aus m zufälligen Messungen möglich, wenn m > c s log(n/s) ist.

Unsere Forschung befasst sich mit mehreren Varianten und Erweiterungen des Compressive Sensing:

  • Strukturierte Zufallsmatrizen: In der Praxis können nicht beliebige zufällige Messungen verwendet werden. Physikalische bzw. technische Einschränkungen führen zu strukturierten Zufallsmatrizen wie zufälligen partiellen Fourier-Matrizen, unterabgetasteten Zufallskonvolutionen und mehr führt. Der Beweis von Rekonstruktionsgarantien für solche Matrizen ist wesentlich schwieriger als für unstrukturierte (Gauß'sche) Zufallsmatrizen.
  • Rekonstruktion von Matrizen und Tensoren von niedrigem Rang: Für bestimmte Anwendungen muss man die Sparsity-Annahmen durch die Annahme niedrigen Ranges für eine zu rekonstruktierende Matrix oder einen Tensor höherer Ordnung ersetzen. Gerade für Tensoren ist es besonders schwierig, theoretische Garantien für die Anzahl der Messungen, die notwendig sind für die Rekonstruktion mittels effizienter Algorithmen. Wir entwickeln Theorie und Algorithmen für dieses Problem.
  • Phasenrekonstruktion: In Anwendungen wie Kristallographie, Ptychographie und der Antennenvermessung kann nur Phaseninformation gewonnen werden. Das Problem der Signalwiederherstellung wird dann als Phasenrekonstruktion bezeichnet und weist Verbindungen zur Rekonstruktion von Niedrigrangmatrizen auf. Wir arbeiten an theoretischen Schranken für die Anzahl der erforderlichen Messungen und entwickeln praktische Wiederherstellungsmethoden.
  • Verbindungen zum Deep Learning: Probleme des Compressive Sensing der Niedrigrangrekonstruktion können als nützliche Modellprobleme für die Untersuchung des theoretischen Verständnisses des Trainingsprozesses im Deep Learning verwendet werden. Unsere Untersuchungen geben insbesondere aufschlussreiche theoretische Einblicke in das Phänomen der impliziten Regularisierung von Gradientenabstiegsmethoden.